مقایسه الگوریتمهای برپایه یادگیری ماشین بر دقت تخمین دادههای گمشده حاصل از آزمایشهای ریزآرایه
Authors
Abstract:
وجود دادههای گمشده در دادههای ریزآرایه، سبب کاهش دقت رسم شبکههای تنظیمی ژن، ایجاد اشتباه در خوشه بندی و تقسیمبندی تخصصی ژنها و سایر تحلیلها میشود. بنابراین تخمین داده-های گمشده مرحله مهمی در پیش پردازش دادههای ریزآرایه، محسوب میشود. عملکرد الگوریتم-های تخمین در مجموعه دادههای مختلف و با درصدهای متفاوت گمشدگی، متغیر است. همواره انتخاب مناسبترین الگوریتم به منظور دستیابی به بیشترین دقت در محاسبات دادههای گمشده از اهمیت خاصی برخوردار است. در این مطالعه از سه مجموعه داده آزمایشهای ریزآرایه استفاده شد. پس از مشخص کردن ابعاد ماتریس بیانی و نرمال کردن دادهها، درصدهای مختلفی از گمشدگی، بر مجموعه دادههای مورد مطالعه اعمال شد. سپس نتایج حاصل با استفاده از 11 الگوریتم بر پایه یادگیری ماشین، به منظور بررسی میزان دقت هر یک از الگوریتمها در تعیین میزان درصد گمشدگی، مورد مقایسه قرار گرفت. بر اساس نتایج، دقت الگوریتمهای مختلف به مجموعه داده به کار رفته، درصد گمشدگی و توزیع گمشدگی دادهها وابسته است. همچنین تعداد نمونههای آزمایشی موجود در مجموعه دادهها نیز می تواند بر دقت الگوریتمهای تخمین دادههای گمشده موثر باشد. نتایج بیانگر کاهش دقت تمامی الگوریتمها با افزایش درصد دادههای گمشده بود، اما الگوریتمهای Least Square Adaptive و Local least square دقت بیشتری در مقابل افزایش درصد گمشدگی دادهها نسبت به سایر الگوریتمها نشان دادند.
similar resources
مقایسه الگوریتم های برپایه یادگیری ماشین بر دقت تخمین داده های گمشده حاصل از آزمایش های ریزآرایه
وجود داده های گمشده در داده های ریزآرایه، سبب کاهش دقت رسم شبکه های تنظیمی ژن، ایجاد اشتباه در خوشه بندی و تقسیم بندی تخصصی ژن ها و سایر تحلیل ها می شود. بنابراین تخمین داده-های گمشده مرحله مهمی در پیش پردازش داده های ریزآرایه، محسوب می شود. عملکرد الگوریتم-های تخمین در مجموعه داده های مختلف و با درصدهای متفاوت گمشدگی، متغیر است. همواره انتخاب مناسب ترین الگوریتم به منظور دستیابی به بیشترین دقت...
full textمروری بر روشهای تخمین هزینه نرمافزار مبتنی بر یادگیری ماشین
Software project management software is the most important activity in software development, because it contains the whole software development process, from beginning to end. Software cost estimation is a challenge task in the software project management. It is an old activity in computer industry from 1940s and has been developed many times. Effort, only covers part of the cost of a software ...
full textارائه یک روش جدید برای تخمین مقادیر گمشده در مجموعه داده
اغلب مجموعه داده های مربوط به داده کاوی و ماشین یادگیری دارای داده هایی با مقادیر Missing Values یا داده گمشده می باشند. چگونگی برخورد با داده گمشده و نیز ارائه راهکارهایی مبتنی بر تخمین مقدار مربوط به داده گمشده، منجر به بروز یک مسئله بسیار مهم در زمینه داده کاوی و ماشین یادگیری شده است. در بین الگوریتم های داده کاوی، الگوریتم C4.5، به دلیل کارآیی، استفاده در کاربردهای مختلف داده کاوی و نیز ت...
full textبررسی نتایج حاصل از آزمایشهای cpt در شرایط آزمایشگاهی با تاکید بر تکرارپذیری و دقت نتایج
آزمایش درجای نفوذ مخروط که اختصاراً به آن cpt (cone penetration test) گفته می شود یکی از پرکاربردترین و پرطرفدارترین آزمایشات درجا می باشد. استفاده وسیع از این آزمایش به سبب اقتصادی بودن و سرعت عمل آن در مهندسی ژئوتکنیک در شناسایی لایه های خاک و مشخصات آن، موجب گشته است که محققین بسیاری به روشهای گوناگون تحلیلی، تجربی و عددی به مطالعه این آزمایش در خاک بپردازند تا ارتباط صحیحی بین مشخصات خاک و م...
15 صفحه اولتخمین پارامترهای کیفی آب با استفاده از ترکیب روش ماشین یادگیری قدرتمند و تئوری موجک
ﻫریک از ﻣﺼﺎرف ﮔﻮﻧﺎﮔﻮن آب ﻣﺎﻧﻨﺪ ﻛﺸﺎورزی، ﺷﺮب و ﺻﻨﻌﺖ ﻧﻴﺎزﻣﻨﺪ آب ﺑﺎ کیفیتی ﻣﺸﺨﺺ ﻫﺴﺘﻨﺪ ﻛﻪ حدود کیفی آن، ﺑﺎ ﻧﻤﻮﻧﻪﺑﺮداریﻫﺎی ﻣﻜﺮر، آزﻣﺎﻳﺶ و ﺗﺤﻠﻴﻞ ﻧﺘﺎﻳﺞ ﻣﺸﺨﺺ ﻣﻲشود. ﻫﺰینۀ ﻧﻤﻮﻧﻪﺑﺮداری از آبﻫﺎی ﺳﻄﺤﻲ، اﻧﺪازهﮔﻴﺮی ﭘﺎراﻣﺘﺮﻫﺎی ﻛﻴﻔﻲ در ﻣﺤﻴﻂ آزﻣﺎیشگاه و ﺧﻄﺎﻫﺎی اﻧﺴﺎﻧﻲ، از ﺟﻤﻠﻪ ﻣﺸﻜﻼت ﻣﻮﺟﻮد در ﺗﺨﻤﻴﻦ ﻏﻠﻈﺖ ﭘﺎراﻣﺘﺮﻫﺎی ﻛﻴﻔﻲاند. ﺑﻪ ﻫﻤﻴﻦ ﻣﻨﻈﻮر، ﺑﺮای اﻟﮕﻮﺑﻨﺪی ﭘﺎراﻣﺘﺮﻫﺎی ﻛﻴﻔﻲ آب، روشﻫﺎی ﻣﺨﺘﻠﻔﻲ وﺟﻮد دارد ﻛﻪ در اﻳ...
full textMy Resources
Journal title
volume 28 issue 4
pages 612- 622
publication date 2016-02-20
By following a journal you will be notified via email when a new issue of this journal is published.
Hosted on Doprax cloud platform doprax.com
copyright © 2015-2023